歡迎來到從被動使用AI轉向主動協調AI的新階段。要理解「數位員工」,我們首先必須區分一般聊天機器人與自主代理。傳統的大型語言模型(LLM)互動是反應式的——依賴於簡單的輸入 → 輸出模式;而自主代理則在一個由公式定義的遞迴循環中運作:
$$ \text{目標} + \text{推理} + \text{工具} = \text{成果} $$
1. 大型語言模型作為中央處理單元
在此架構中,大型語言模型(LLM)扮演著「大腦」或中央處理器的角色。它提供核心邏輯與語言能力,但若要使其發揮員工功能,仍需有能支援持久化與執行的框架作為後盾。
2. 代理架構的三大支柱
要讓這個「大腦」發揮效能,必須依賴三大支柱:
- 規劃:將複雜目標分解為可管理的子任務。
- 記憶:保留先前互動的上下文與長期資料。
- 行動:透過工具在數位世界中執行任務。
我們不再只是發出提示;而是設計一個能夠感知環境並在遇到錯誤時自我修正的系統。
代理邏輯結構
問題 1
在此架構中,哪一項代表自主代理的「大腦」?
問題 2
哪一項支柱負責將複雜專案拆解為可管理的子任務?
挑戰:識別代理行為
分析自主代理的工作流程。
你要求人工智慧「找出三班前往紐約的航班,挑出最便宜的一班,並替我撰寫一封寄給經理的電子郵件。」
第一步
在這工作流程中,請指出「推理」步驟為何。
解答:
推理發生在代理比較三班航班的價格,並根據使用者的標準選出最低價的那一班時。
推理發生在代理比較三班航班的價格,並根據使用者的標準選出最低價的那一班時。